生成高质量的艺术肖像视频是计算机图形和愿景中的一项重要且理想的任务。尽管已经提出了一系列成功的肖像图像图像模型模型,但这些面向图像的方法在应用于视频(例如固定框架尺寸,面部对齐的要求,缺失的非种族细节和缺失的非种族细节和缺失的要求)时,具有明显的限制。时间不一致。在这项工作中,我们通过引入一个新颖的Vtoonify框架来研究具有挑战性的可控高分辨率肖像视频风格转移。具体而言,Vtoonify利用了Stylegan的中高分辨率层,以基于编码器提取的多尺度内容功能来渲染高质量的艺术肖像,以更好地保留框架细节。由此产生的完全卷积体系结构接受可变大小的视频中的非对齐面孔作为输入,从而有助于完整的面部区域,并在输出中自然动作。我们的框架与现有的基于Stylegan的图像图像模型兼容,以将其扩展到视频化,并继承了这些模型的吸引力,以进行柔性风格控制颜色和强度。这项工作分别为基于收藏和基于示例的肖像视频风格转移而建立在Toonify和DualStylegan的基于Toonify和Dualstylegan的Vtoonify的两个实例化。广泛的实验结果证明了我们提出的VTOONIFY框架对现有方法的有效性在生成具有灵活风格控件的高质量和临时艺术肖像视频方面的有效性。
translated by 谷歌翻译
我们定期考虑在实践中回答反事实问题,例如“糖尿病患者会选择另一种药物,会更好吗?”。观察性研究在回答此类问题的显着性上增长,因为它们的广泛积累和比随机对照试验(RCT)比较容易获得的。最近,一些作品将表示和域的适应性引入了反事实推断。但是,大多数目前的作品都集中在二进制治疗的设置上。他们都没有认为不同治疗的样本量不平衡,尤其是由于固有的用户偏好,某些治疗组中的数据示例相对有限。在本文中,我们为反事实推断设计了一种新的算法框架,从元学习来估算单个治疗效果(元地铁)以填补上述研究空白,尤其是考虑多种不平衡治疗方法。具体而言,我们将反事实推断的治疗组之间的数据发作视为元学习任务。我们从一组有足够样品的源治疗组中训练一个元学习者,并通过梯度下降进行梯度下降,而在目标治疗中样本有限。此外,我们引入了两个互补的损失。一个是多种来源治疗的监督损失。提出了与各个治疗组之间潜在分布对齐的另一个损失,以减少差异。我们在两个现实世界数据集上执行实验,以评估推理准确性和概括能力。实验结果表明,模型元地铁匹配/跑赢大的方法。
translated by 谷歌翻译
大规模数据集在面部生成/编辑的最新成功中扮演着必不可少的角色,并显着促进了新兴研究领域的进步。但是,学术界仍然缺乏具有不同面部属性注释的视频数据集,这对于与面部相关视频的研究至关重要。在这项工作中,我们提出了一个带有丰富面部属性注释的大规模,高质量和多样化的视频数据集,名为高质量的名人视频数据集(CelebV-HQ)。 Celebv-HQ至少包含35,666个视频剪辑,分辨率为512x512,涉及15,653个身份。所有剪辑均以83个面部属性手动标记,涵盖外观,动作和情感。我们对年龄,种族,亮度稳定性,运动平滑度,头部姿势多样性和数据质量进行全面分析,以证明CelebV-HQ的多样性和时间连贯性。此外,其多功能性和潜力在两个代表性任务(即无条件的视频生成和视频面部属性编辑)上得到了验证。此外,我们设想了Celebv-HQ的未来潜力,以及它将带来相关研究方向的新机会和挑战。数据,代码和模型公开可用。项目页面:https://celebv-hq.github.io。
translated by 谷歌翻译
封闭在野外的脸部图像中非常常见,导致面部相关任务的性能劣化。虽然致力于从面部图像中去除闭塞的努力,但遮挡的不同形状和纹理仍然挑战当前方法的稳健性。结果,目前的方法依赖于手动遮挡掩模或仅适用于特定的闭塞。本文提出了一种基于面部分割和3D面重建的新型面部去遮挡模型,其自动除去甚至模糊边界,例如,毛发。,毛发。所提出的模型包括3D面部重建模块,面部分割模块和图像生成模块。对于前两者预测的面部和遮挡掩模,图像生成模块可以忠实地恢复缺失的面部纹理。为了监督培训,我们进一步构建了一个大型遮挡数据集,双手动标记和合成闭塞。定性和定量结果证明了该方法的有效性和稳健性。
translated by 谷歌翻译
生成的对抗网络(GANS)通常需要充分的数据进行培训,以综合高保真图像。最近的研究表明,由于鉴别器过度拟合,带有有限数据的培训GAN仍然是强大的,阻碍发电机收敛的根本原因。本文介绍了一种称为自适应伪增强(APA)的新战略,以鼓励发电机与鉴别者之间的健康竞争。作为依赖标准数据增强或模型正则化的现有方法的替代方法,APA通过采用发电机本身增加具有生成图像的真实数据分布来缓解过度装备,这使得判别符号自适应地欺骗鉴别器。广泛的实验证明了APA在降低数据制度中改善合成质量方面的有效性。我们提供了理论分析,以研究我们新培训策略的收敛性和合理性。 APA简单有效。它可以无缝添加到强大的当代GAN,例如Stylegan2,计算成本可忽略不计。
translated by 谷歌翻译
多模式问题是现实世界中的全部问题:自主驾驶,机器人抓住,场景理解等......我们从相似性的良好分析中得出了一个例子,以提供神经网络从不同传感器培训的问题,以及哪里从这些传感器中提取的特征仍然携带类似的信息。更确切地说,我们证明了对于每个传感器,来自与其他传感器最多相关的最后层的特征的线性组合对应于分类层的分类组件。
translated by 谷歌翻译
鲁棒和准确的核心检测对于了解荧光显微镜图像中的生物结构是重要的。现有的自动核本地化方法面临三个主要挑战:(1)大多数物体检测方法仅在2D图像上工作,并且难以延伸到3D卷; (2)基于分段的模型可以在3D卷上使用,但对于大型显微镜卷是计算昂贵的,并且它们难以区分不同的物体实例; (3)手注释的地面真理限于3D显微镜体积。为了解决这些问题,我们提出了一种可扩展方法,用于3D显微镜卷的核质心检测。我们描述了RCNN-SliceNet以检测来自不同方向的每个体积的2D核质心,并且3D聚集等级聚类(AHC)用于估计体积中核的3D质心。使用空间约束的周期 - 一致的对冲网络(SPCyclegan)进行的合成显微镜数据接受培训,并在不同类型的真实3D显微镜数据上进行测试。广泛的实验结果表明,我们的提出方法可以准确地计数并检测3D显微镜体积中的核质心。
translated by 谷歌翻译
本文展示了熊猫健身房,一套加固学习(RL)环境,适用于与Openai健身房一体化的弗兰卡·埃米卡熊猫机器人。包括五项任务:达到,推,幻灯片,拾取和堆叠。它们都遵循多目标RL框架,允许使用面向目标的RL算法。为了促进开放式研究,我们选择使用开源物理引擎Pybullet。为此包选择的实现允许定义非常容易的新任务或新机器人。本文还介绍了通过最先进的无模式脱核算法获得的结果。熊猫健身房是开源,在https://github.com/qgallouedec/panda-gym上免费提供。
translated by 谷歌翻译
如今,越来越多的数据集以分布式方式存储,以便存储器存储或数据隐私。广义特征值问题(GEP)在大型高维统计模型中起着至关重要的作用。然而,对于特征值分解的现有分布式方法不能在GEP中应用实证协方差矩阵的发散。在这里,我们提出了一般的分布式GEP框架,并为GEP进行一次播放通信。如果对称数据协方差具有重复的特征值,例如,在规范组件分析中,我们进一步修改了更好的收敛方法。对近似误差的理论分析是对数据协方差的差异,经验数据协方差的特征等的关系,以及本地服务器的数量。数值实验还显示了所提出的算法的有效性。
translated by 谷歌翻译
Benefiting from the intrinsic supervision information exploitation capability, contrastive learning has achieved promising performance in the field of deep graph clustering recently. However, we observe that two drawbacks of the positive and negative sample construction mechanisms limit the performance of existing algorithms from further improvement. 1) The quality of positive samples heavily depends on the carefully designed data augmentations, while inappropriate data augmentations would easily lead to the semantic drift and indiscriminative positive samples. 2) The constructed negative samples are not reliable for ignoring important clustering information. To solve these problems, we propose a Cluster-guided Contrastive deep Graph Clustering network (CCGC) by mining the intrinsic supervision information in the high-confidence clustering results. Specifically, instead of conducting complex node or edge perturbation, we construct two views of the graph by designing special Siamese encoders whose weights are not shared between the sibling sub-networks. Then, guided by the high-confidence clustering information, we carefully select and construct the positive samples from the same high-confidence cluster in two views. Moreover, to construct semantic meaningful negative sample pairs, we regard the centers of different high-confidence clusters as negative samples, thus improving the discriminative capability and reliability of the constructed sample pairs. Lastly, we design an objective function to pull close the samples from the same cluster while pushing away those from other clusters by maximizing and minimizing the cross-view cosine similarity between positive and negative samples. Extensive experimental results on six datasets demonstrate the effectiveness of CCGC compared with the existing state-of-the-art algorithms.
translated by 谷歌翻译